htcap：一款实用的递归型Web漏洞扫描工具

2017-07-27 合天智汇

点击“蓝字”关注，每日学习网安干货

今天给大家介绍的是一款名叫 htcap 的开源 Web 漏洞扫描工具，它通过拦截 AJAX 调用和页面 DOM 结构的变化并采用递归的形式来爬取单页面应用（SPA）。htcap 并不是一款新型的漏洞扫描工具，因为它主要针对的是漏洞扫描点的爬取过程，然后使用外部工具来扫描安全漏洞。在 htcap 的帮助下，我们就可以通过手动或自动渗透测试来对现代 Web应用进行漏洞扫描了。

环境要求

1.      Python 2.7
2.      PhantomJS v2
3.      Sqlmap
4.      Arachni

工具下载和运行

$ git clonehttps://github.com/segment-srl/htcap.git htcap
$ htcap/htcap.py

明令行参数

$ htcap crawl -h
usage: htcap [options] url outfile
Options:
 -h               帮助菜单
 -w               覆盖输出文件
 -q               不显示处理过程信息
  -mMODE         设置爬取模式：
                     - passive:不与页面交互
                      - active:触发事件
                      - aggressive:填写输入值并爬取表单 (默认)
  -sSCOPE          设置爬取范围：
                      - domain:仅爬取当前域名 (默认)
                      - directory:仅爬取档期那目录 (以及子目录)
                      - url: 仅分析单一页面
 -D               最大爬取深度 (默认: 100)
 -P               连续表单的最大爬取深度 (默认: 10)
 -F               主动模式下不爬取表单
 -H               保存页面生成的HTML代码
  -dDOMAINS      待扫描的域名，多个域名用逗号分隔 (例如*.target.com)
  -cCOOKIES       以JSON格式或name=value键值对的形式设置cookie，多个值用分号隔开
  -CCOOKIE_FILE   包含cookie的文件路径
  -rREFERER       设置初始引用
  -xEXCLUDED      不扫描的URL地址，多个地址用逗号隔开
  -pPROXY         设置代理，protocol:host:port-  支持'http'或'socks5'
  -nTHREADS       爬虫线程数量 (默认: 10)
  -ACREDENTIALS   用户HTTP验证的用户名和密码，例如username:password
  -UUSERAGENT    设置用户代理
  -tTIMEOUT       分析一个页面最长可用时间(默认300)
 -S               跳过初始url检测
 -G               分组query_string参数
 -N               不使用标准化URL路径 (保留../../)
 -R               最大重定向数量 (默认10)
 -I               忽略robots.txt

htcap简单介绍

htcap的扫描过程分为两步，htcap首先会尽可能地收集待测目标可以发送的请求，例如url、表单和AJAX请求等等，然后将收集到的请求保存到一个SQLite数据库中。爬取工作完成之后，我们就可以使用其他的安全扫描工具来测试这些搜集到的测试点，最后将扫描结果存储到刚才那个SQLite数据库之中。

htcap内置了sqlmap和arachni模块，sqlmap主要用来扫描SQL注入漏洞，而arachni可以发现XSS、XXE、代码执行和文件包含等漏洞。

htcap所采用的爬虫算法能够采用递归的方式爬取基于AJAX的页面，htcap可以捕获AJAX调用，然后映射出DOM结构的变化，并对新增的对象进行递归扫描。当htcap加载了一个测试页面之后，htcap会尝试通过触发所有的事件和填充输入值来触发AJAX调用请求，当htcap检测到了AJAX调用之后，htcap会等待请求和相关调用完成。如果之后页面的DOM结构发生了变化，htcap便会用相同算法对新增元素再次进行计算和爬取，直到触发了所有的AJAX调用为止。

爬虫模块

Htcap支持三种爬取模式：被动型、主动型和攻击型。在被动模式下，htcap不会与任何页面进行交互，这意味着爬虫不会触发任何页面事件，它只会收集页面现有的链接。在这个模式下，htcap就跟普通的Web爬虫一样，只会收集页面<a>标签中的链接。在主动模式下，htcap会触发所有发现的事件，相当于模拟用户与页面进行交互，但不填写任何表单数据。在攻击模式下，htcap会向所有扫描到的表单和输入框中填写测试数据，即尽可能地模拟用户与页面进行交互。

爬取范围

htcap可以指 51 29402 51 15232 0 0 4320 0 0:00:06 0:00:03 0:00:03 4319定爬取范围，可选范围包括：域名、目录和url。如果范围是域名的话，htcap只会爬取给定的域名地址；如果范围为目录，那么htcap将会爬取指定目录以及该目录下的所有子目录；如果设置的是url，那么htcap将只会分析单个页面。

* 参考来源：n0where， FB小编Alpha_h4ck编译，转载来自FreeBuf.COM

别忘了投稿哟！！！

合天公众号开启原创投稿啦！！！

大家有好的技术原创文章。

欢迎投稿至邮箱：edu@heetian.com；

合天会根据文章的时效、新颖、文笔、实用等多方面评判给予100元-500元不等的稿费哟。

有才能的你快来投稿吧！

合天网安实验室

网址 : www.hetianlab.com

电话：4006-123-731

长按图片，据说只有颜值高的人才能识别哦→

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

古琴养身：为什么弹古琴的女人会更有气质？99%的人都不知道！

炸大瓜！君子固穷豪刷阿哲，锤“姓氏哥”！VIC哥凌晨豪刷俊雅！

抖音兜底？阿哲爆瓜违约金！晒大量流量卡，回应官方推流！

舞帝一哥被封！谁也没面子！阿哲回应外界舆论，放话：真金白银谁敢干！